加固学习(RL)中的许多应用通常具有环境中存在的噪声或随机性。除了对学习的影响之外,这些不确定性使完全相同的政策表现出色,即产生不同的回报,从一个推出到另一个推出。RL中的常见评估程序总结了仅使用预期回报的结果回报分布,这不会考虑分布的传播。我们的工作将这一范围定义为策略可重复性:策略多次推出时获得类似绩效的能力,在某些现实世界中的某些现实应用程序中具有关键属性。我们强调,仅使用预期收益的现有程序在两个方面受到限制:首先,具有多种绩效可重复可重复可取舍的无限返回分布可能具有相同的预期回报,从而在比较策略时限制了其有效性;其次,预期的返回指标不会为从业者选择最佳的权衡价值,以便为被考虑的应用程序选择最佳的权衡价值。在这项工作中,我们通过建议使用较低的置信度绑定来解决这些限制,这是贝叶斯优化的指标,该指标为用户提供了优先参数,以选择所需的绩效可复制性权衡。我们还使用广泛的RL算法对常见不确定的RL任务进行广泛的RL算法实验,并降低了我们指标的损益的策略可重复性。
主要关键词